Analyse descriptive

Description de la population

Le jeu de données est constitué de 569 entrées. Chacune de ces entrées correspond à une personne atteinte d’un cancer du sein chez qui une biopsie de la tumeur a été effectuée. Les noyaux des cellules tumorales on ensuite été énalysé et les données recueillies sont présentées dans le tableau ci-dessous. Pour chaque variable, on a la moyenne (mean), l’erreur standard (SE) et la “pire”" valeur (worst, c’est-à-dire la moyenne des trois plus grandes valeurs de la variable).

Les 10 variables mesurées sur les noyaux des cellules sont :

  1. Radius : le rayon du noyau, qui est la moyenne des distances entre le centre du noyau et des points sur le périmètre
  2. Texture : ecart-ype des valeurs des echelles de gris
  3. Perimeter : le périmètre du noyau
  4. Area : l’aire du noyau
  5. Smoothness : la variation locale des longueurs du rayon
  6. Compactness, compacité : perimeter^2 / area - 1
  7. Concavity, concavité : sévérité des portions concaves du contour
  8. Concave points : nombre de portions concaves du contour
  9. Symmetry : la symétrie du noyau
  10. Fractal dimension : “coastline approximation” - 1

Chaque échantillon a un identifiant et un diagnostic associé à la tumeur (maligne, M ; ou bénin, B). Il y a 357 tumeurs bénines (62.74 %) et 212 (37.26 %) tumeurs malignes.

Le tableau suivant résume quelques paramètres statistiques pour chaque variables :

Densités de répartition

La densité de répartition des valeurs de chaque variables est raportée dans les graphiques suivants.

Moyenne

Graphique 1 : répartition des moyennes pour chaque variable

Graphique 1 : répartition des moyennes pour chaque variable

SE

Graphique 2 : répartition des erreurs standard pour chaque variable

Graphique 2 : répartition des erreurs standard pour chaque variable

Worst

Graphique 3 : répartition des pires valeurs pour chaque variable

Graphique 3 : répartition des pires valeurs pour chaque variable

Corrélations

Pour savoir quelles sont les variables corrélées entre elles, on trace un diagrammes de corrélation :

Moyennes

SE

Worst

Description des variables

Diagnostic

C’est une variable catégorielle binaire qui renseigne sur le diagnostic associé à l’échantillon. Elle prend soit la valeur “B” pour désigner une tumeur bénine, soit la valeur “M” pour une tumeur maligne.

Ainsi, on voit que deux tiers des tumeurs sont bénignes.

Taille du noyau

Trois variables numériques continues renseignent sur la taille du noyau des cellules : le rayon (radius), le périmètre (perimeter) et l’aire (area). Elles sont corrélées entre elles et liées par des relations mathématiques.

Rayon

Périmètre

Aire

Aspect

L’aspect du noyau est raporté par deux variables numériques continues : la compacité et la texture. Comme pour la taille du noyau, les valeurs pour les tumeurs malignes sont plus élevées que pour les bénignes.

Compactness

La compacité est calculée par la formule suivante : \(\frac{perimeter^2}{area} - 1\)

Texture

La texture du noyau est calculée à partie de l’ecart-type des valeurs des échelles de gris.

Forme du noyau

Cinq variables numériques continues ont été mesurées pour rendre compte de la forme du noyau. On voit que la différence entre les cellules malignes et bénignes est la plus marquée pour les variables concavity et concave points. Les cellules tumorales malignes ont donc un noyau avec des contours plus concaves par rapport aux cellules bénines. La dimension fractale par contre n’est pas différente entre les deux types de cellules.

Smoothness

Concavity

Concave points

Symmetry

Fractal dimension

La dimension fractale est une variable numérique continue. Elle renseigne sur l’irrégularité des contours du noyau des cellules.

Clustering

K-means

Clustering hiérarchique

Autre

Classification

Arbres de décisions

k plus proches voisins

Random forest

Comparaison des modèles